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(57) Abstract: The invention concerns a method for assigning at least one sound class to a sound 
signal, characterized in that it comprises the following steps: dividing the sound signal into tem- 
poral segments having a specific duration; extracting the frequency parameters of the sound signal 
in each of the temporal segments, by determining a series of values of the frequency spectrum 
in a frequency range between a minimum frequency and a maximum frequency; assembling the 
parameters in time windows having a specific duration greater than the duration of the temporal 
segments; extracting from each time window, characteristic components; and on the basis of the 
extracted characteristic components and using a classifier, identifying the sound class of the time 
windows of the sound signal. 

(57) Abrege : L'objet de 1' invention concerne un procede pour afTecter au moins une classe so- 
nore a un signal sonore, caracterise en ce qu'il comprend les etapes suivantes : diviser le signal 
sonore en des segments temporels presentant une duree determinee; extraire les parametres fre- 
quentiels du signal sonore dans chacun des segments temporels, en determinant une serie des 
valeurs du spectre de frequence dans une plage de frequences comprise entre une frequence mi- 
nimale et une frequence maximale; regrouper les parametres frequentiels dans des fenetres tem- 
porelles presentant une duree determinee superieure a la duree des segments temporels; extraire 
de chaque fenetre temporelle, des composantes caracteristiques; et en consideration des com- 
posantes caracteristiques extraites et a Taide d'un classificateur, identifier la classe sonore des 
fenetres temporelles du signal sonore. 
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PROCEDE ET APPAREIL POUR AFFECTER UNE CLASSE SONORE A 

UN SIGNAL SONORE 
La pr6sente invention concerne le domaine de la classification d'un signal 
sonore en des classes acoustiques refl6tant une semantique. 
5 L'objet de Tinvention concerne plus precisement le domaine de Pextraction 

automatique d'un signal sonore, d'informations s6mantiques tels que musique, 
parole, bruit, silence, homme, femme, musique rock, jazz, etc. 

Dans T6tat de la technique, la profusion de documents multimedias requiert 
une indexation necessitant une intervention humaine importante, ce qui constitue une 
10 operation coflteuse et longue a mener a bien. Par consequent, 1'extraction 
automatique d'informations semantiques constitue une aide pr6cieuse permettant de 
faciliter et d'accelerer le travail de l'analyse et de Tindexation. 

Dans de nombreuses applications, la segmentation et la classification 
semantique d'une bande sonore constituent frSquemment des operations necessaires 
1 5 avant d'envisager d'autres analyses et traitements sur le signal sonore. 

Une application connue necessitant la segmentation et la classification 
semantique concerne les systemes de reconnaissance automatique de la parole 
appeles aussi systemes de dictee vocale adaptes pour transcrire en texte une bande de 
paroles. Une segmentation et une classification de la bande sonore en des segments 
20 musique/parole sont des Stapes indispensables pour un niveau de performances 
acceptables. 

L'utilisation d'un systeme de reconnaissance automatique de la parole pour une 
indexation par le contenu de documents audiovisuels comme par exemple les 
journaux televises, necessite d'eliminer les segments de non parole pour diminuer le 

25 taux d'erreur. De plus, si une connaissance a priori du genre du locuteur (homme ou 
femme) est disponible, l'utilisation d'xm systeme de reconnaissance automatique de 
la parole permet d'aboutir a une amelioration importante des performances. 

Une autre application connue ayant recours a la segmentation et a la 
classification semantique d'une bande sonore concerne des systemes de statistiques 

30 et de surveillance. En effet, pour des questions du respect du droit d'auteur ou du 
respect du quota du temps de parole, des organismes de regulation et de controle 
comme le CSA ou la SACEM en France, doivent s'appuyer sur des comptes rendus 
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precis, par exemple sur la dur6e du temps de parole par homme politique dans les 
chaines de t61evision pour le CSA et le titre et la duree des chansons emises par les 
radios pour la SACEM. La mise en place d'un systeme automatique de statistiques et 
de surveillance s'appuie au pr6alable sur une segmentation et une classification d'une 
5 bande sonore musique/parole. 

Une autre application possible a trait au systeme de r6sume ou de filtrage 
automatique de programmes audiovisuels. Pour de nombreuses applications, comme 
par exemple la telephonie mobile ou la vente de programmes audiovisuels par 
correspondance, il apparait necessaire de resumer eventuellement selon le centre 
10 d'inter6t d'un utilisateur, un programme audiovisuel de deux heures en une 
compilation de moments forts de quelques minutes. Un tel r6sume peut etre realis6 
soit off-line, c'est-a-dire qu'il s'agit d'un resume prealablement calcul6 qui est 
associe au programme d'origine, soit on-line, c'est-a-dire qu'il s'agit d'un filtrage du 
programme audiovisuel permettant de conserver uniquement les moments forts d'un 
15 programme en mode de diffusion ou streaming. Les moments forts sont fonction du 
programme audiovisuel et du centre d'interet d'un utilisateur. Par exemple, dans un 
match de football, un moment fort est celui ou il y a une action de but. Pour un film 
d'action, un moment fort correspond a des combats, a des poursuites, etc. Ces 
moments forts se traduisent le plus souvent en des percussions sur la bande sonore. 
Pour les identifier, il est interessant de s'appuyer sur une segmentation et une 
classification de la bande sonore en des segments ayant une certaine propriete ou 



20 



non. 



Dans l'etat de la technique, il existe divers systemes de classification d'un 
signal sonore. Par exemple, le document WO 98 27 543 decrit une technique de 

25 classification d'un signal sonore en musique ou parole. Ce document prevoit 
d'etudier les differents parametres mesurables du signal sonore tel que l'energie de 
modulation a 4Hz, le flux spectral, la variation du flux spectral, le taux de passage 
par zero, etc. Ces parametres sont extraits pour une fenetre d'une seconde ou une 
autre duree, pour definir la variation du flux spectral ou une trame comme le taux de 

30 passage par zero. Ensuite, en utilisant differents classificateurs, comme par exemple 
le classificateur base sur le m61ange des lois Gaussiennes ou un classificateur du Plus 
Proche Voisin, un taux d'erreur de l'ordre de 6 % est obtenu. L'apprentissage des 
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classificateurs a ete realise sur trente six minutes et le test sur quatre minutes. Ces 
r6sultats montrent que la technique proposee necessitent une base d'apprentissage 
d'une taille importante pour aboutir a un taux de reconnaissance de 95 %. Si cela est 
possible avec quarante minutes de documents audiovisuels, cette technique apparait 
5 difficilement envisageable pour des applications ou les donn6es a classifier ont une 
taille importante avec un niveau haut de variabilite r6sultant des differentes sources 
des documents avec des niveaux de bruits et de resolution differents pour chacune de 
ces sources. 

Le brevet US 5 712 953 decrit un systeme utilisant la variation par rapport au 
1 0 temps du premier moment du spectre relatif a la frequence pour la detection du signal 
de musique. Ce document suppose que cette variation est tres faible pour la musique 
contrairement a d'autres signaux non musicaux. Malheureusement, les differents 
types de musique n'ont pas la meme structuration de sorte qu'un tel systeme prdsente 
des performances insuffisantes comme par exemple pour le RAP. 
1 5 La demande de brevet europeen 1 100 073 propose une classification du signal 

sonore en differentes categories en utilisant dix-huit parametres comme par exemple 
la moyenne et la variance de la puissance du signal, la puissance des moyennes 
frequences, etc. Une quantification vectorielle est realisee et la distance de 
Mahalanobis est utilisee pour la classification. II apparait que l'utilisation de la 
20 puissance du signal n'est pas stable car les signaux provenant de differentes sources 
sont toujours enregistres avec differents niveaux de puissance spectrale. Par ailleurs, 
l'utilisation des parametres, comme la puissance de basses frequences ou hautes 
Sequences, pour la discrimination entre la musique et la parole est une limitation 
serieuse compte tenu de l'extreme variation, a la fois de la musique et de la parole. 
25 Enfin, le choix d'une distance appropriee pour des vecteurs de dix-huit parametres 
non homogenes n'est pas evident car il s'agit d'affecter des poids differents a ces 
parametres en fonction de leur importance. 

De meme, dans l'article de ZHU LIU ET AL « AUDIO FEATURE 
EXTRACTION AND ANALYSIS FOR SCENE SEGMENTATION AND 
30 CLASSIFICATION ». JOURNAL OF VLSI SIGNAL PROCESSING SYSTEMS 
FOR SIGNAL. IMAGE, AND VIDEO TECHNOLOGY, KLUWER ACADEMIC 
PUBLISHERS, DORDRECHT, NL, Vol. 20, n° 1/2, 1 Octobre 1998 (1998-10-01), 
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pages 61-78, XP000786728, ISSN : 0922-5773, il est decrit une technique de 
classification du signal sonore en classes sonores. Cette technique pr6voit une 
segmentation du signal sonore en des fenetres de quelques dizaines de ms et un 
regroupement en des fenetres de 1 s. Le regroupement est r6alise par un calcul de la 
5 moyenne de certains parametres appeles parametres frequentiels. Pour obtenir ces 
parametres frequentiels, le proc6de consiste a extraire des mesures du spectre du 
signal, tel que le centroide de frequence ou le rapport de l'energie de basse frequence 
(0 - 630 Hz), moyenne frequence (630 - 1720 Hz), haute Sequence (1720 - 
4400 Hz) a l'energie. 

10 Un tel proced6 propose en particulier de prendre en compte des parametres 

extraits apres un calcul sur le spectre. La mise en oeuvre d'un tel proced6 ne permet 

pas d'obtenir un taux de reconnaissance satisfaisant. 

L'objet de rinvention vise done a remedier aux inconvenients 6nonces ci- 

dessus en proposant une technique permettant de realiser une classification du signal 
15 sonore en des classes semantiques avec un taux de reconnaissance eleve tout en 

necessitant une dur6e reduite d'apprentissage. 

Pour atteindre un tel objectif, le procede selon l'invention concerne un procede 

pour affecter au moins une classe sonore a un signal sonore, comprenant les etapes 

suivantes : 

20 ■ diviser le signal sonore en des segments temporels presentant une dur6e 

determinee, 

■ extraire les parametres fr6quentiels du signal sonore dans chacun des 
segments temporels, 

■ regrouper les parametres frequentiels dans des fendtres temporelles 
25 pr6sentant une duree determinee superieure a la duree des segments 

temporels, 

■ extraire de chaque fendtre temporelle, des composantes caractSristiques, 

■ et en consideration des composantes caracteristiques extraites et a l'aide 
d'un classificateur, identifier la classe sonore de chaque fenetre temporelle 

30 du signal sonore. 

Un autre objet de l'invention est de proposer un appareil pour affecter au 
moins une classe sonore a un signal sonore comprenant : 
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■ des moyens pour diviser le signal sonore en des segments temporels 
pr6sentant une duree determin6e, 

■ des moyens pour extraire les parametres frequentiels du signal sonore 
dans chacun des segments temporels, 

5 ■ des moyens pour regrouper les parametres frequentiels dans des fenetres 

temporelles prdsentant une duree determinee superieure a la dur£e des 
segments temporels, 

■ des moyens pour extraire de chaque fenetre temporelle, des composantes 

caracteristiques, 

10 ■ et des moyens pour identifier la classe sonore des fen§tres temporelles du 

signal sonore en consideration des composantes caracteristiques extraites 
et a Faide d'un classificateur. 
Diverses autres caracteristiques ressortent de la description faite ci-dessous en 
reference aux dessins annexes qui montrent, a titre d'exemples non limitatifs, des 
1 5 formes de realisation de I'objet de rinvention. 

La Fig. 1 est un schema synoptique montrant un appareil de mise en ceuvre du 
procede de classification d'un signal sonore conforme a rinvention. 

La Fig- 2 est un schema illustrant une etape caracteristique du procede selon 
rinvention, k savoir de transformation. 
20 La Fig. 3 est un schema illustrant une autre etape caracteristique de rinvention. 

La Fig. 4 illustre une etape de classification du signal sonore selon 1' invention. 
La Fig. 5 est un schema illustrant un exemple de reseau de neurones utilise 
dans le cadre de rinvention. 

Tel que cela apparait plus precisement a la Fig. 1, I'objet de rinvention 
25 concerne un appareil 1 permettant de classifier un signal sonore S de tous types en 
des classes sonores. En d'autres termes, le signal sonore S est decoupe en des 
segments qui sont 6tiquetes en fonction de leur contenu. Les etiquettes associees a 
chaque segment comme par exemple musique, parole, bruit, homme, femme, etc. 
realisent une classification du signal sonore en des categories semantiques ou classes 
30 sonores semantiques. 

Conform6ment a rinvention, le signal sonore S k classifier est applique a 
l'entree de moyens de segmentation 10 permettant de diviser le signal sonore S en 
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des segments temporels T prSsentant chacun une duree determines De preference, 
les segments temporels T prSsentent tous une meme duree comprise de preference 
entre dix et trente ms. Dans la mesure ou chaque segment temporel T presente une 
duree de quelques millisecondes, il peut etre consid6r6 que le signal est stationnaire, 
5 de sorte qu'il peut etre applique par la suite, des transformations qui changent le 
signal temporel dans le domaine frequentiel. Diff&rents types de segments temporels 
peuvent etre utilises comme par exemple des fenetres rectangulaires simples, fenetres 
de Hanning ou de Hamming. 

L'appareil 1 comporte ainsi des moyens d'extraction 20 permettant d'extraire 
10 les param^tres frequentiels du signal sonore dans chacun des segments temporels T. 
I/appareil 1 comporte 6galement des moyens 30 pour regrouper ces parametres 
frequentiels dans des fenStres temporelles F presentant une duree determinee 
superieure k la duree des segments temporels T. 

Selon une caracteristique prefer£e de realisation, les parametres fir6quentiels 
15 sont regroup6s dans des fenStres temporelles F de duree sup6rieure a 0,3 seconde et 
de preference comprise entre 0, 5 et 2 secondes. Le choix de la taille de la fenetre 
temporelle F est determine pour pouvoir discriminer deux fenetres differentes 
acoustiquement comme par exemple parole, musique, homme, femme, silence, etc. 
Si la fenetre temporelle F est courte de quelques dizaines de millisecondes par 
20 exemple, des changements acoustiques locaux de type changement de volume, 
changement d'instrument de musique, debut ou fin d'un mot peuvent Stre detect6s. Si 
la fen6tre est large, par exemple de quelques centimes de millisecondes par 
exemple, les changements detectables seront des changements plus generaux du type 
changement de rythme de musique ou rythme de parole par exemple. 
25 L'appareil 1 comporte egalement des moyens d'extraction 40 permettant 

d'extraire de chaque fenStre temporelle F des composantes caracteristiques. En 
consideration de ces composantes caracteristiques extraites et a 1'aide d'un 
classificateur 50, des moyens d'identification 60 permettent d'identifier la classe 
sonore de chaque fenetre temporelle F du signal sonore S. 
30 La description qui suit decrit une variante pr6fer6e de realisation d'une 

methode de classification d'un signal sonore. 



WO 2004/006222 




T/FR2003/002116 



Selon une caracteristique pr6feree de realisation, pour passer du domaine 
temporel au domaine frequentiel, les moyens d'extraction 20 utilisent la Transform6e 
de Fourier Discrete dans le cas d'un signal sonore 6chantillonne, notee par la suite 
TFD. La Transformee de Fourier Discrete donne pour une serie temporelle de valeurs 
5 d'amplitude du signal, une s6rie de valeurs de spectres de frequence. L'equation de la 
Transformee de Fourier Discrete est la suivante : 



N-l 

-jl7iknlN 



X N (n)=^x(k)e 



k=0 

ou x(k) est le signal dans le domaine temporel. 
10 Le terme |X(n)( est appele spectre d'amplitude, il exprime la repartition 

frequentielle de F amplitude du signal x(k). 

Le terme arg[X(n)] est appele spectre de phase, il exprime la repartition 
frequentielle de la phase du signal x(k). 

Le terme |X(n)| 2 est appele spectre d'energie, exprimant la repartition 
1 5 frequentielle de r energie du signal x(k). 

Les valeurs largement utilises sont les valeurs de spectre d' energie. 
En consequence, pour une s6rie de valeurs temporelles de Tamplitude du signal 
x(k) d'un segment temporel T, il est obtenu une serie Xi des valeurs du spectre de 
frequence dans une plage de frequences comprise entre une frequence minimale et 
20 une frequence maximale. La collection de ces valeurs ou parametres frequentiels est 
appelee « vecteur de TFD » ou vecteur spectral. Chaque vecteur Xi correspond au 
vecteur spectral pour chaque segment temporel T, avec i allant de 1 a n. 

Selon une caracteristique prefer6e de realisation, une operation de 
transformation ou de filtrage est effectuee sur les parametres frequentiels 
25 prealablement obtenus par rintermediaire de moyens de transformation 25 interposes 
entre les moyens d'extraction 20 et les moyens de regroupement 30. Tel que cela 
apparait plus precisement sur la Fig. 2, cette operation de transformation permet a 
partir du vecteur spectral X i? de g6n6rer un vecteur de caracteristiques transformees 
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Y f . La transformation est donn6e par la formule yi avec les variables, limitel, limite2 
et aj qui d6finissent precisement la transformation. 

La transformation peut Stre du type identity de sorte que le vecteur de 
caracteristiques Xf ne change pas. Selon cette transformation, limitel et limite2 sont 
5 egaux a j et le param&tre aj est 6gal k 1. Le vecteur spectral X { est egal Yi. 

La transformation peut etre une transformation moyenne de deux frequences 
adjacentes. Selon ce type de transformation, il peut etre obtenu la moyenne de deux 
spectres de frequences adjacentes. Par exemple, il peut etre choisi limitel est 6gal k j 
et limite2 est 6gal a j+1 et aj est egal a 0,5. 
10 La transformation utilisee peut etre une transformation suivant une 

approximation de P6chelle de Mel. Cette transformation peut etre obtenue en faisant 
varier les variables limitel et limite2 sur les valeurs suivantes : 



0, 1, 2, 3, 4, 5, 6, 8, 9,10, 12, 15, 17, 20, 23, 27,31, 37, 40, avec 



15 Par exemple, en choisissant limitel et Umite2 comme indique ci-dessous il peut Stre 
obtenu un vecteur Y de dimension 20, a partir d'un vecteur brut X de dimension 40, 
en utilisant l'equation decrite dans la Fig, 2. 

limitel=0 -> limite2=l 

limitel=l -> limite2=2 

20 limitel=2 limite2=3 



1 



|limfrel-lim*te2| 



limitel =3 -> limite2=4 



limitel =4 -> limite2=5 



limitel =5 -> limite2=6 



limitel=6 -> limite2=8 



25 



limitel=8 -> limite2=9 



limitel=9 -> limite2=10 



limitel=10 -> limite2=12 



limitel=12 limite2=15 
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limitel=15 -> limite2=17 

limitel=17 -> limite2=20 

limitel=20 -> limite2=23 

limitel=23 -> limite2=27 

5 limitel=27 -> limite2=31 

limitel=31 -> limite2=37 

limitel=37 -> limite2=40 

Les transformations sur le vecteur spectral Xf sont plus ou moins importantes 
selon l'application, c'est-a-dire en fonction des classes sonores a classifier. Des 
10 exemples de choix de cette transformation seront donnees dans la suite de la 
description. 

Tel que cela ressort de la description qui precede, le precede selon Pinvention 
consiste a extraire de chaque fenetre temporelle F, des composantes caracteristiques 
permettant d'obtenir une description du signal sonore sur cette fenetre presentant une 
15 duree relativement large. Ainsi, pour les vecteurs Yi de chaque fenetre temporelle F, 
les composantes caracteristiques calculees peuvent etre la moyenne, la variance, le 
moment, le parametre du suivi des frequences ou le taux de passage par silence. 
L'estimation de ces composantes caracteristiques est effectu6e selon la formule 
suivante : 

20 

















• 






v, = 






X i2 

















25 



ou p, t est le vecteur moyen, v, le vecteur de variance, x t etant le vecteur de 
caracteristiques qui n'est autre que le vecteur spectral filtre decrit precedemment 
pour constituer des fenetres temporelles F. 
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jU iy = 2* x ij j = l 9 -~ 9 N oiij correspond a la bande de frequence dans le 

vecteur spectral 5c, / correspond au temps, ou l'instant pour lequel le vecteur est 
extrait (segment temporel T), N est le nombre d'61ements dans le vecteur (ou le 
nombre de bande de Sequence), Mt correspond au nombre de vecteur k 6tudier leurs 
5 statistiques (fenetre temporelle F), i dans fi & correspond k l'instant de la fenetre 

temporelle F pour laquelle fi tJ est calcul6e,y correspond k la bande de fr6quence. 

1 A 

ou j correspond k la bande de frequence dans le vecteur spectral x et dans le vecteur 
moyen /Z , / correspond au temps, ou l'instant pour lequel le vecteur x est extrait 

10 (segment temporel T), N est le nombre d'el6ments dans le vecteur (ou le nombre de 
bande de frequence), Mt correspond au nombre de vecteur a etudier leurs statistiques 
(fenetre temporelle F), i dans iL tJ et v {J correspond a l'instant de la fenetre temporelle F 

pour laquelle /2 et v sont calculees,y correspond a la bande de frequence. 

Le moment qui peut etre important pour la description du comportement des donnees 
1 5 est calcule de la maniere suivante : 

1 A 

w if = Zj(xn -j"//)" y = l,---,JV , les indices i, j, N, /, Mt sont expliques 

pour la variance, et n >2. 

Le procede selon 1'invention permet egalement de determiner comme 
composantes caracteristiques, le parametre SF permettant de suivre les frequences, 

20 En effet, il a ete constate que pour la musique, il existait une certaine continuit6 de 
frequences, c'est-^-dire que les frequences les plus importantes dans le signal, 
c'est-a-dire celles qui concentrent le plus d'energie restent les memes pendant un 
certain temps, tandis que pour la parole ou pour le bruit (non harmonique) le 
changement des frequences les plus importantes se fait d'une maniere plus rapide. A 

25 partir de ce constat, il est propose de faire un suivi de plusieurs frequences en meme 
temps selon un intervalle de precision par exemple 200 Hz. Ce choix est motive par , 
le fait que les frequences les plus importantes dans une musique changent mais d'une 
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mani&re graduelle. L'extraction de ce parametre de suivi de frequences SF se fait de 
la maniere suivante. Pour chaque vecteur Yi de Transform^ de Fourier Discrete, il 
est proc6de k Identification par exemple des cinq frequences les plus importantes. 
Si Tune de ces firequences ne figure plus dans les cinq frequences les plus 

5 importantes du vecteur de Transform6e de Fourier Discrete, dans une bande de 
100 Hz, une coupure est signalee. Le nombre de coupures dans chaque fenetre 
temporelle F est comptd, ce qui d6finit le parametre de suivi de frequences SF. Ce 
param&tre SF pour les segments de musique est clairement inferieur a celui de la 
parole ou du bruit. Aussi, un tel parametre est interessant pour une discrimination 

1 0 entre la musique et la parole. 

Selon une autre caracteristique de P invention, le proc6de consiste a definir 
comme composante caracteristique, le taux de passage par silence TPPS. Ce 
parametre consiste a compter dans une fenetre de taille fix^e, par exemple de deux 
secondes, le nombre de fois o& Penergie arrive au seuil de silence. En effet, il doit 

15 etre consid6re que T&iergie du signal sonore pendant P61ocution d'un mot est 
normalement 61eve alors qu'elle diminue sous le seuil de silence entre les mots. 
1/ extraction du paramdtre est effectue de la maniere suivante. Pour chaque 10 ms du 
signal, Penergie du signal est calculee. La derivSe de Penergie est calculee par 
rapport au temps, soit Penergie de T+l moins P6nergie k Pinstant T. Puis dans une 

20 fenetre de 2 secondes, le nombre de fois ou la derivee de P6nergie depasse xm certain 
seuil est comptee. 

Tel que cela apparait plus pfecis^ment a la Fig. 3, les parametres extraits de 
chaque fenetre temporelle F definissent un vecteur de caracteristiques Z. Ce vecte\ir 
de caracteristiques Z est done la concatenation des composantes caracteristiques 

25 definies a savoir les vecteurs moyens, variances et moments, ainsi que le suivi des 
frequences SF et le taux de passage par silence TPPS. En fonction de Papplication, 
une partie seulement ou la totalite des composantes du vecteur de caracteristiques Z 
est utilisee en vue d'une classification. Par exemple, si la plage de frequences dans 
laquelle est extrait le spectre est compris entre 0 et 4 000 Hz, avec un pas de 

30 frequences de 100 Hz, il est obtenu 40 elements par vecteur spectral. Si pour la 
transformation du vecteur de caracteristiques brut Xi il est applique Pidentite, alors 
sont obtenus 40 Elements pour le vecteur moyen, 40 pour le vecteur variance, et 40 
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pour le vecteur moment. Apr&s concatenation et ajout des param&res TPPS et SF, il 
est obtenu un vecteur de caracteristiques Z de 122 elements. En fonction de 
^application, il peut etre choisi d'utiliser la totality ou seulement un sous-ensemble 
de ce vecteur caracteristiques en prenant par exemple 40 ou 80 elements. 
5 Selon une variante pr6f6r6e de realisation de Pinvention, le procedS consiste k 

assurer une operation de normalisation des composantes caracteristiques k 1'aide de 
moyens de normalisation 45 interposes entre les moyens d* extraction 40 et le 
classificateur 50. Cette normalisation consiste pour le vecteur moyen k chercher le 
composant qui presente la valeur maximale et a diviser les autres composants du 

10 vecteur moyen par ce maximum. Une operation similaire est effectu6e pour le 
vecteur de variance et de moment. Pour le suivi de frequences SF et le taux de 
passage par silence TPPS, ces deux parametres sont divises par une constante fix6e 
apres experimentation afin d'obtenir toujours une valeur comprise entre 0,5 et 1. 

Apres cette etape de normalisation, il est obtenu un vecteur de caracteristiques 

15 dont chacune des composantes a une valeur comprise entre 0 et 1. Si le vecteur 
spectral a deja subi une transformation, cette etape de normalisation du vecteur de 
caracteristiques peut ne pas etre n6cessaire. 

Tel que cela ressort plus precisement de la Fig. 4, le procede selon Pinvention 
consiste apr&s extraction des parametres ou constitution des vecteurs de 

20 caracteristiques Z, a choisir un classificateur 50 permettant a Taide des moyens 
d'identification ou de classification 60, d'etiqueter efficacement chacun de ces 
vecteurs comme etant une des classes acoustiques definies. 

Selon un premier exemple de realisation, le classificateur utilise est un reseau 
de neurones, tel que le perceptron multi-couches a deux couches cachees. La Fig. 5 

25 illustre rarchitecture d'un reseau de neurones comportant par exemple 82 elements 
en entree, 39 elements pour les couches cachees et 7 elements en sortie. Bien 
entendu, il est clair que le nombre de ces elements peut Stre modifie. Les elements de 
la couche d' entree correspondent aux composantes du vecteur de caracteristiques Z. 
Par exemple, s'il est choisi pour la couche d'entree 80 noeuds, il peut etre utilise une 

30 partie du vecteur de caracteristiques Z par exemple les composantes correspondant a 
la moyenne et au moment. Pour la ou les couche(s) cachee(s), les 39 elements utilises 
apparaissent suffisants, l'augmentation du nombre de neurones n'apporte pas une 
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amelioration notable des performances. Le nombre des elements pour la couche de 
sortie correspond au nombre de classes k classifier. Si deux classes sonores sont 
classifies, par exemple musique et parole, la couche de sortie comporte deux noeuds. 
Bien entendu, il peut etre utilise un autre type de classificateur tel que le 
5 classificateur classique K-Plus Proche Voisin (KPPV). Dans ce cas, les 
connaissances de Tapprentissage sont constitues simplement de donn6es 
d'apprentissage. La memorisation de Tapprentissage consiste done k stocker toutes 
les donn6es d'apprentissage. Lorsqu'un vecteur de caracteristiques Z se presente 
pour la classification, il convient de calculer les distances a toutes les donnees de 
10 Tapprentissage afin de choisir les classes les plus proches. 

L'utilisation d'un classificateur permet d'identifier des classes sonores telles 
que parole ou musique, voix d'homme ou voix de femme, moment caracteristique ou 
moment non caracteristique d'un signal sonore, ou moment caracteristique ou 
moment non caracteristique accompagnant un signal video au sens general 
1 5 representant par exemple un film ou un match. 

La description qui suit donne un exemple duplication du procede selon 
Tinvention pour la classification d'une bande sonore en musique ou parole. Selon cet 
exemple, une bande sonore en entree est decoupee en une succession d'intervalles de 
parole, de musique, de silence ou d'autres choses. Dans la mesure ou la 
20 caracterisation d'un segment de silence est facile, les experimentations se sont 
portees sur une segmentation en parole ou en musique. Pour cette application, il a ete 
utilise un sous-ensemble du vecteur de caracteristiques Z contenant 82 elements, 80 
elements pour la moyenne et la variance et un pour TPPS et un pour le SF. Le 
vecteur subit une transformation identite et une normalisation. La taille de chaque 
25 fenetre temporelle F est egale a 2s. 

Afin de montrer la qualit6 des caracteristiques ci-dessus et extraites d'lm 
segment sonore, il a ete utilise deux classificateurs, Tun base sur un reseau de 
neurone RN, Tautre utilisant le principe simple de &-PPV, e'est a dire «k-Plus 
Proche Voisin ». Dans xm but de tester la generality du procede, il a ete realist 
30 Tapprentissage du RN et de fc-PPV sur 80s de musique et 80s de parole extraites de 
la chaine Aljazeerah M http://www.aljazeera.net/ n en langue arabe. Ensuite, les deux 
classificateurs ont ete experimentes sur un corpus de musique ainsi qu'un corpus de 
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paroles, deux corpus de nature trds variee totalisant 1280s (plus de 21 minutes). Le 
rSsultat sur la classification des segments de musique est donn6 dans le tableau 
suivant. 



Musique extraites de 


Longueur 


k-PPV 


k-PPV % 


RN 


RN % 




de 




reussite 




reussite 




segment 










Apprentissage 


80s 


80s 


100 


80s 


100 


Fairuz (Habbavtak bissavf) 


80s 


74s 


92.5 


72s 


90 


Fnim'z rT-Tflbbavfalr bis^avf^ 

L CLIX \XZ-i I XXCLUU<*>y tCUV UlOOajr Ay 


80s 


80s 


100 


80s 


100 


Fairuz (eddach kan fi nass) 


80s 


70s 


87.5 


70s 


87.5 


George Michael (careless 


80s 


70s 


87.5 


80s 


100 


whisper) 












George Michael (careless 


80s 


76s 


95 


80s 


100 


whisper) 












Metallica (turn the page) 


80s 


74s 


92.5 


78s 


97.5 


Film "Gladiateur" 


80s 


78s 


97.5 


80s 


100 


Total 


640s 


602s 


94 


626s 


97.8 



Tableau 1 taux de reussite pour la classification de musique en utilisant un RN 
5 et un *-PPV 

On peut y voir que le classificateur k-PPV donne globalement un taux de 
reussite plus de 94% alors que le classificateur RN culmine avec un taux de reussite 
de 97,8%. On peut y rioter aussi la bonne capacite de generalisation du classificateur 
RN. En effet, alors que P apprentissage a 6te realise sur 80s d'une musique libanaise, 

10 il realise une classification 100% reussie sur un genre de musique tout autre de 
Georges Michael et meme un taux de classification reussie de 97,5% avec Metallica 
qui est une musique de Rock reputee difficile. 

Quant a Pexperimentation sur les segments de parole, elle a ete menee sur des 
extraits varies venant des emissions CNN en anglais, de LCI en fran9ais et du film 

15 « Gladiateur » alors que P apprentissage des deux classificateurs a et6 realise sur 80s 
de parole en arabe. Le tableau suivant donne les resultats des deux classificateurs. 
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Paroles extraites de 


Longueur 


k-PPV 


k-PPV 


% RN 


RN % 




de segment 




reussite 




reussite 


Apprentissage 


80s 


80s 


100 


80s 


100 


CNN 


80s 


80s 


100 


74s 


92.5 


CNN 


80s 


72s 


90 


78s 


97.5 


CNN 


80s 


72s 


90 


76s 


95 


LCI 


80s 


58s 


72.5 


80s 


100 


LCI 


80s 


66s 


82.5 


80s 


100 


LCI 


80s 


58s 


72.5 


80s 


100 


Film "Gladiateur" 


80s 


72s 


90 


72s 


90 


Total 


640s 


558s 


87.2 


620s 


96.9 


Tableau 2 taux de reussite pour la classification de parole en utilisant un RN et 



un /fc-PPV 

5 On peut voir sur le tableau que le classificateur s'av&re particulierement 

performant avec des extraits de LCI en fran^ais car il realise une classification 100% 
correcte. Pour les extraits de CNN en anglais, il realise tout de meme un taux de 
bonne classification au dessus de 92,5% et globalement le classificateur RN atteint 
un taux de classification reussie de 97% alors que le classificateur k-PPV donne un 

10 taux de bonne classification de 87%. 

Selon une autre experience, ces resultats encourageants pour le classificateur 
RN a ete choisi et appliqu6 a des segments melangeant la parole et la musique. Pour 
cela, il a ete realise un apprentissage de musique sur 40 secondes du programme « la 
guerre du Liban » issu de la chaine « Aljazeerah » puis 80 secondes de parole en 

15 arabe extraites du meme programme. Le classificateur RN a ete teste sur 30 minutes 
du film "chapeau melon et bottes de cuir " qui a ete segmente et classifie. Les 
resultats de cette experimentation sont donnes dans le tableau suivant. 



Erreur Musique Erreur Parole 


Longueur segment 


Erreur totale 


Accuracy % 


68s 141s 


1800s 


209s 


88.4 



Tableau 3 resultat de la segmentation-classification du film 
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Dans un but de comparer le classificateur selon l'invention avec les travaux de 
l*6tat de Tart, il a 6te aussi test6 Toutil de "Muscle Fish" 
(http://\AAAAA/.musclefish.com/speechMusic.zip > ) utilis6 par Virage sur le m6me 
corpus et les resultats suivants ont 6t6 obtenus : 



Erreur Musique 


Erreur Parole 


Longueur segment 


Erreur totale 


Accuracy % 


336s 


36s 


1800s 


372s 


79.3 



5 Tableau 4 resultat de l'outil de Muscle Fish pour la segmentation-classification 
du film 

H peut etre constate clairement que le classificateur RN depasse de 10 points en 
teime de precision Poutil Muscle Fish. 

Enfin, il a et6 aussi test6 le classificateur RN sur 10 minutes de programmes de 
10 "LCI", composes de T6dito", de "l'invit6" et de "la vie des m6dias" et les resultats 
suivants ont ete obtenus : 



Erreur Musique Erreur Parole Longueur segment Erreur totale 


Accuracy % 


12s 2s 600s 14s 


97.7 


Tableau 5 resultat de segmentation-classification des programmes LCI 


Alors que l'outil de "Muscle Fish" a donne les resultats suivants: 




Erreur Musique Erreur Parole Longueur segment Erreur totale 


Accuracy % 


2s 18s 600s 20s 


96.7 



Tableau 6 resultat de segmentation-classification des programmes LCI avec 
1 5 Toutil de Muscle Fish 



Les resultats rScapitulatifs par le classificateur RN sont les suivants : 



Donnee 


Donnee de 


Erreur 


Apprentissage / 


Accuracy 


d'apprentissage 


Test 


totale 


test % 


% 


120s 


3000s 


227s 


4 


92.4 



Tableau 7 resultat de segmentation-classification sur les differentes videos 



On y voit que pour un taux de precision de plus de 92% sur 50 minutes dans 
cette experimentation, le classificateur RN genere seulement un taux A/T (duree 
20 apprentissage/dur6e test) de 4 %, ce qui est tres encourageant par rapport aux taux 
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A/T de 300 % pour le systdme de [Will 99] (Gethin Williams, Daniel Ellis, 
Speech/music discrimination based on posterior probability features, Eurospeech 
1999) bas6 sur les param&res de probability k posteriori de HMM (Hidden Markov 
Model) et en utilisant les GMM. 
5 Un deuxieme exemple d'expSrimentation a 6t6 realist afin de classifier un 

signal sonore en voix d'homme ou en voix de femme. Selon cette experience, les 
segments de parole sont decoupes en des morceaux 6tiquetes voix masculine ou voix 
feminine. A cet effet, le vecteur de caracteristiques ne comporte pas le taux de 
passage par silence et le suivi de frequences. Le poids de ces deux parametres est 

10 done ramene a 0. La taille de la fenetre temporelle F a ete fix6e a 1 seconde. 

Les experimentations ont 6te realisees sur des donnees des appels 
telephoniques de la base Switchboard de « Linguistic Data Consortium » LCD 
(http://www.ldc.ui3enn.eduy II a 6te choisi pour Tapprentissage et pour le test des 
appels telephoniques entre des locuteurs de meme genre, e'est k dire conversations 

15 homme-homme et femme-femme. L'apprentissage a 6te fait sur 300s de parole 
extraites de 4 appels t61ephoniques homme-homme et 300s de parole extraites de 4 
appels telephonique femme-femme. Le proc6de selon Pinvention a ete teste sur 
6000s (lOOmin) dont 3000s extraits de 10 appels homme-homme qui sont differents 
des appels utilises pour Tapprentissage, et 3000s extraits de 10 appels femme- 

20 femme, differents egalement des appels utilises pour l'apprentissage. Le tableau ci- 
dessous resume les resultats obtenus. 



Taux de 


Taux de 


Longueur 


Longueur 


Duree de parole 


Precision 


detection 


detection 


segment 


segment 


pour 


% 


homme 


femme 


homme 


femme 


l'Apprentissage / 












Duree totale de 












test 




85% 


90% 


3000s 


3000s 


10% 


87.5% 



On voit que le taux de detection global est de 87,5% avec un echantillon de 
parole pour l'apprentissage qui n'est que de 10% des paroles test6es. On constate 
25 aussi que le proc6d6 selon l'invention realise une meilleure detection de parole 
feminine (90%) que masculine (85%). Ces resultats peuvent 8tre encore sensiblement 



WO 2004/006222 




T7FR2003/002116 



ameliores si Ton applique le principe de vote majoritaire a des segments homog&ies 
k la suite de la segmentation aveugle et si Ton elimine les longs silences qui 
apparaissent assez souvent dans les conversations telSphoniques et qui conduisent k 
un 6tiquetage de femme par la technique selon l'invention. 
5 Une autre experience vise k classifier un signal sonore en moment important ou 

non dans un match sportif. La detection de moments cl6s dans un match sportif par 
exemple celui de football dans un contexte de retransmission audiovisuel en direct 
est tres importante pour permettre une g6n6ration automatique de resumes 
audiovisuels qui peuvent etre une compilation des images, des moments cles ainsi 
10 detectes. Dans le contexte d'un match de football, un moment cl6 est celui ou 
intervient une action de but, une penalite, etc, Dans le contexte d'un match de basket- 
ball, un moment cle peut etre defini par celui ou intervient une action mettant la balle 
dans le panier. Dans le contexte d'un match de rugby, un moment cle peut etre defini 
par celui ou intervient Taction d'essai par exemple. Cette notion de moment cle peut 
1 5 bien entendu Stre applique k tous matchs spprtifs. 

La detection de moments cles dans une sequence audiovisuelle sportive revient 
a un probleme de la classification de la bande sonore, du terrain, de l'assistance et 
des commentateurs accompagnant le deroulement du match. En effet, lors des 
moments importants dans un match sportif, comme par exemple celui du football, ils 
20 se traduisent en ime tension dans le ton de parole du commentateur et 
1'intensification du bruit des spectateurs. Devant cette experimentation, le vecteur de 
caracteristiques utilise est celui utilise pour la classification musique/parole en 
enlevant uniquement les deux parametres TPPS et de SF. La transformation utilisee 
sur les vecteurs de caracteristiques bruts est celle suivant Pechelle de Mel, tandis que 
25 Petape de la normalisation n'est pas appliquee au vecteur de caracteristiques. La 
taille de la fenetre temporelle F est de 2 secondes. 

II a ete choisi trois matchs de football de la coupe de FUEFA pour les 
experimentations. Pour l'apprentissage, il a ete segments manuellement 20s des 
moments cles, et 20s des moments non cles du premier match. On a done deux 
30 classes sonores : moment cle ou moment non cle. 



WO 2004/006222 ^fcCI7FR2003/002116 

w 19 w 



Apr6s l'apprentissage, il a et6 men6 la classification sur les trois matchs. Les 
r6sultats sont 6valu6s en terme du nombre de buts detectes, et en terme du temps 
classify comme important. 





Nombre 
debuts 


Temps 
important 
detecte (s) 


Buts 
d6tectes 


Precision 
% 


Match 1 


3 


90 


3 


100 


Match 2 


0 


40 


0 


NA 


Match 3 


4 


80 


4 


100 



5 

On peut voir qu'a travers le tableau, tous les moments de but ont 6te detectes. 
En plus, pour un match de football de 90 minutes, on gen&re un resume de 90 
secondes au plus comprenant tous les moments de but. 

Bien entendu, la classification en moments importants ou non peut Stre 
10 generalisee a la classification sonore de tous documents audiovisuels, tels qu'un film 
d'action ou un film pornographique. 

Le procede selon Finvention permet egalement par tous moyens appropries, 
d'affecter une etiquette pour chaque fenetre temporelle affectee a une classe et de 
rechercher les etiquettes pour un tel signal sonore par exemple enregistre dans une 
1 5 base de donn6es. 

Uinvention n ! est pas limitSe aux exemples decrits et representes car diverses 
modifications peuvent y etre apportees sans sortir de son cadre. 



WO 2004/006222 



20 



T7FR2003/002116 



REVENDICATIONS 

1 - Precede pour affecter au moins une classe sonore a un signal sonore, 
caracteris6 en ce qu'il comprend les 6tapes suivantes : 

■ diviser le signal sonore en des segments temporels (T) pr6sentant une 
5 duree determine, 

■ extraire les parametres frequentiels du signal sonore dans chacun des 
segments temporels (T), en determinant Tine serie des valeurs du spectre de 
frequence dans une plage de frequences comprise entre une fr6quence 
minimale et une frequence maximale, 

10 ■ regrouper les parametres frequentiels dans des fenetres temporelles (F) 

presentant une duree determinee sup6rieure k la duree des segments 
temporels (T), 

■ extraire de chaque fenetre temporelle (F), des composantes 
caracteristiques, 

15 ■ et en consideration des composantes caracteristiques extraites et a l'aide 

d'un classificateur, identifier la classe sonore des fenetres temporelles (F) 
du signal sonore. 

2 - Proc6de selon la revendication 1, caracterise en ce qu'il consiste a diviser le 
signal sonore en des segments temporels (T) dont la dur6e est comprise entre 10 et 

20 30 ms. 

3 - Procede selon la revendication 1, caracteris6 en ce qu'il consiste a extraire les 
parametres frequentiels en utilisant la Transformee de Fourier Discrete. 

4 - Procede selon la revendication 3, caracterise en ce qu'il consiste a assurer une 
operation de transformation ou de filtrage des parametres frequentiels. 

25 5 - Procede selon la revendication 4, caracterise en ce qu'il consiste a realiser une 
transformation de type identite, moyenne de deux frequences adjacentes, ou selon 
l'echelle de Mel. 

6 -Procede selon la revendication 4 ou 5, caracterise en ce qu'il consiste a 
regrouper les parametres frequentiels dans des fenetres temporelles de duree 
30 superieure k 0,3 seconde et de preference comprise entre 0,5 et 2 secondes. 

7 - Procede selon la revendication 1, caracterise en ce qu'il consiste a extraire de 
chaque fenetre temporelle, des composantes caracteristiques telles que la moyenne, 
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la variance, le moment, le param&tre du suivi des frequences ou le taux de passage 
par silence. 

8 - Proced6 selon la revendication 7, caracterise en ce qu'il consiste a utiliser une 
ou plusieurs composantes caracteristiques en entree du classificateur. 
5 9 - Procede selon la revendication 7 ou 8, caracteris6 en ce qu'il consiste a assurer 
une operation de normalisation des composantes caract6ristiques. 

10 - Procede selon les revendications 7 et 9, caract6ris6 en ce que Toperation de 
normalisation consiste : 

■ pour la moyenne, la variance ou le moment, chercher le composant 
10 pr6sentant la valeur maximale et a diviser les autres composants par cette 

valeur maximale, 

■ pour le suivi des frequences ou le taux de passage par silence, a diviser 
chacune de ces composantes caracteristiques par une constante fixee apres 
experimentation pour obtenir une valeur comprise entre 0,5 et 1. 

15 11 -Procede selon la revendication 1 ou 8, caracterise en ce qu'il consiste a 
utiliser comme classificateur, un reseau de neurones ou le K-Plus Proche Voisin. 

12 - Proc6de selon la revendication 11, caracterise en ce qu'il consiste a realiser 
une phase d'apprentissage d'un signal sonore pour le classificateur. 

13 - Procede selon l'une des revendications 1 a 12, caracterise en ce qu'il consiste 
20 a l'aide d'un classificateur, a identifier des classes sonores telles que parole ou 

musique, voix d'homme ou voix de femme, moment caracteristique ou moment non 
caracteristique d'un signal sonore, moment caracteristique ou moment non 
caracteristique accompagnant un signal video representant, par exemple, un film ou 
un match. 

25 14 - Procede selon la revendication 13, caracterise en ce qu'il consiste a classifier 
le signal sonore en musique ou en parole en utilisant les parametres de moyenne, de 
variance, de suivi de frequences, et le taux de passage par silence, suivi par une 
normalisation des parametres tandis que la fenetre temporelle est egale a 2 s. 

15 - Procede selon la revendication 13, caracterise en ce qu'il consiste a classifier 

30 le signal d'un match en moment important ou moment non important en utilisant les 
parametres de moyenne et de variance, avec une transformation selon l'echelle de 
Mel sans appliquer une normalisation des composantes caracteristiques. 
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16 - Procecte selon la revendication 13, caract6rise en ce qu'il consiste a identifier 
des moments forts dans un signal sonore d'un match. 

17 - Proc6d6 selon la revendication 16, caract6ris6 en ce qu'il consiste a utiliser 
Tidentification des moments forts pour creer un resume de match. 

5 18 - Proc6d6 selon la revendication 13, caracterise en ce qu'il consiste k identifier 
et suivre la parole dans un signal sonore. 

19 - Proc6de selon la revendication 18, caracterisS en ce qu'il consiste k identifier 
et suivre la parole d'un homme et/ou d'une femme pour la partie parole du signal 
sonore. 

10 20 - Precede selon la revendication 13, caracterise en ce qu'il consiste a identifier 
et suivre la musique dans un signal sonore. 

21-Proced6 selon la revendication 13, caracteris6 en ce qu'il consiste a 
determiner si le signal sonore contient de la parole ou de la musique. 

22 - Proced6 selon la revendication 13, caract6rise en ce qu'il consiste k affecter 
15 une etiquette pour chaque fenetre temporelle affectee a une classe. 

23-Procede selon la revendication 22, caracterise en ce qu'il consiste a 
rechercher les etiquettes pour un signal sonore. 

24 - Appareil pour affecter au moins une classe sonore a un signal sonore, 
caracterise en ce qu'il comprend : 
20 ■ des moyens (10) pour diviser le signal sonore (S) en des segments 

temporels (T) presentant une duree determinee, 

■ des moyens (20) pour extraire les parametres frequentiels du signal sonore 
dans chacun des segments temporels (T), 

■ des moyens (30) pour regrouper les parametres frequentiels dans des 
25 fenetres temporelles (F) presentant une duree determinee superieure a la 

duree des segments temporels, 

■ des moyens (40) pour extraire de chaque fenetre temporelle (F), des 
composantes caracteristiques, 

■ et des moyens (60) pour identifier la classe sonore des fenetres 
30 temporelles (F) du signal sonore en consideration des composantes 

caracteristiques extraites et a l'aide d'un classificateur. 
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25 - Appareil selon la revendication 24, caracteris6 en ce que les moyens (20) 
pour extraire les parametres fr6quentiels utilisent la Transformee de Fourier Discrete. 

26 - Appareil selon la revendication 24 ou 25, caract6ris6 en ce qu'il comprend 
des moyens (25) pour assurer une operation de transformation ou de filtrage des 

5 parametres frequentiels. 

27 -Appareil selon Tune des revendications 24 k 26, caract6ris6 en ce qu'il 
comporte des moyens (30) pour regrouper les parametres fr6quentiels dans des 
fen§tres temporelles (F) de dur6e sup6rieure a 0,3 seconde et de preference comprise 
entre 0,5 et 2 secondes. 
10 28 - Appareil selon la revendication 24, caracterise en ce qu'il comporte en tant 
que moyens (40) pour extraire de chaque fenetre temporelle, des composantes 
caract&ristiques, des moyens pour extraire la moyenne, la variance, le moment, le 
parametre du suivi des frequences ou le taux de passage par silence. 

29 - Appareil selon la revendication 28, caracterise en ce qu'il comporte des 
15 moyens (45) de normalisation des composantes caracteristiques. 

30 - Appareil selon la revendication 24, caracterise en ce qu'il comporte comme 
classificateur, un reseau de neurones ou le K-Plus Proche Voisin. 

31 -Appareil selon la revendication 24, caracterise en ce qu'il comprend des 
moyens (60) pour identifier des classes sonores telles que parole ou musique, voix 
20 d'homme ou voix de femme, moment caracteristique ou moment non caracteristique 
d'un signal sonore, moment caracteristique ou moment non caracteristique 
accompagnant un signal video representant, par exemple, un film ou un match. 

32 - Appareil selon la revendication 24, caracterise en ce qu'il comporte des 
moyens pour affecter une etiquette pour chaque fenetre temporelle affectee k une 

25 jdasse. 

33 - Appareil selon la revendication 32, caracterise en ce qu'il comprend des 
moyens pour rechercher les etiquettes pour un signal sonore enregistre dans une base 
de donnees. 
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